0%

(ICCV 2017) DeepCoder:Semi-Parametric Variational Autoencoders for Automatic Facial Action Coding

Posted on 2018-01-17 In Paper Note , Basic Tasks Views:

Keyword [Facial Action Units]

Linh Tran D, Walecki R, Eleftheriadis S, et al. DeepCoder: Semi-Parametric Variational Autoencoders for Automatic Facial Action Coding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3190-3199.

1. Overview

人脸表情可以编码成一系列的面部活动单元(facial action units, AUs)及其对应的活动强度(intensity). 而变分自编码器(VAE)能够通过无监督学习（重构loss+KL loss）提取数据的隐含表达（latent representation）。因此，对于人脸AU强度估计的任务可分为两个步骤

利用VAE提取人脸特征
使用分类器对特征进行AU活动强度估计

另一方面，non-parametric方法（如Gaussian Process）的效果优于parametric，但该方法只适用于小样本数据，无法很好地处理大样本数据。因此，论文将两者进行结合，提出semi-parametric的DeepCoder框架

parametric VC-AE (Variational Convolutional AEs)
non-parametric VO-GPAE (Variational Ordinal GP AEs)
并在DISFA和FERA2015数据集上进行实验验证。

1.1. FACS

Facial Action Coding System 定义30多个面部肌肉活动单元，及其活动强度评分标准。

2. 框架结构

2.1. VC-AE

包含两部分loss

KL loss (Z0)
reconstruction loss (x->Z0->x’)

实验中使用warming strategy, 额外加入了AU强度估计loss

2.2. VO-GPAE

包含三部分loss

KL loss (Z0)
reconstruction loss (Z0->Z1->Z0)
强度估计loss (Z1->Y)

2.3. Joint Learning

Loss function

VO-GPAE中的covariance function计算量会随着数据量的增多而增加，因此论文提出leave-subset-out策略，将训练集X分为不相交的两个子集X_R和X_L. X_R用于训练VC-AE, X_L用于训练VO-GPAE, 且X_R>>X_L.

3. Experiments

NLPD negative log-predictive density for reconstruction error
ICC intra-class correlation, agreement between annotators

在Z1空间中模型将每个点都fit到一个独立的cluster中，从而使得对Z1空间上的特征进行AU强度估计效果更好。